Initialising ...
Initialising ...
Initialising ...
Initialising ...
Initialising ...
Initialising ...
Initialising ...
長谷川 雄太; 小野寺 直幸; 井戸村 泰宏
no journal, ,
局所細分化格子ボルツマン法の計算コードにおけるメモリ使用量削減および通信高速化を目的として、CUDAのUnified memoryを用いたノード内複数GPU実装を試行した。等間隔格子を用いたマイクロベンチマークテストでは、3次元拡散方程式において弱スケーリング96.4%および強スケーリング94.6%の並列化効率、ならびに、D3Q27格子ボルツマン法において弱スケーリング99.3%および強スケーリング56.5%の並列化効率を得た。局所細分化格子ボルツマン法においては、Flat MPI実装に比べてメモリ使用量を25.5%削減したが、並列化効率が9.0%と極めて低くなった。
長谷川 雄太; 小野寺 直幸; 井戸村 泰宏
no journal, ,
原子力機構におけるCityLBMプロジェクトでは、AMR(Adaptive mesh refinement; 適合細分化格子法)に基づく実時間都市風況予測コードの開発を行ってきた。次世代のCityLBMコードにおいては、予測の信頼性を向上するためにアンサンブル計算の導入が求められている。このためには、メモリ使用量を1つの計算あたり1ノードないし416GPUの規模に抑える必要がある。本研究では、AMRコードにおけるメモリ使用量の削減およびデータ通信の高速化を目的として、CUDAのUnified Memoryを用いたイントラノード複数GPU計算の実装を試行した。Unified MemoryへのアクセスがHBM2(同一GPU)またはNVLink(隣接GPU)から自動的に判別されるため、比較的簡便に複数GPU計算を実装することができる。等間隔格子上で3次元拡散方程式および格子ボルツマン法の複数GPU計算コードを実装し、弱スケーリングおよび強スケーリングを測定することでNVLinkの性能テストを行った。